Unique Data Extraction এবং Duplicate Removal
AWK তে ডেটা প্রক্রিয়াকরণের সময় সাধারণত ডুপ্লিকেট ডেটা মুছে ফেলা বা অনন্য ডেটা বের করা একটি গুরুত্বপূর্ণ কাজ। AWK এর শক্তিশালী ডেটা ম্যানিপুলেশন ক্ষমতা ব্যবহার করে সহজেই ইউনিক ডেটা এক্সট্রাকশন এবং ডুপ্লিকেট রিমুভাল করা যায়।
Unique Data Extraction
AWK তে অ্যারে ব্যবহার করে অনন্য ডেটা এক্সট্রাক্ট করা যায়। প্রতিটি ডেটা ইনডেক্স হিসেবে অ্যারেতে সংরক্ষণ করা হলে, ডুপ্লিকেট ডেটা স্বয়ংক্রিয়ভাবে একবারই সংরক্ষিত হয়।
উদাহরণ:
awk '!seen[$0]++ { print }' data.txtব্যাখ্যা:
!seen[$0]++শর্তটি চেক করে যে$0(সম্পূর্ণ লাইন) অ্যারেতে আগে ছিল কিনা।- প্রথমবার যখন কোনো লাইন দেখা যায়, তখন
seen[$0]এর মান0থাকে এবং এটি প্রিন্ট হয়। পরবর্তীতে একই লাইন আবার পাওয়া গেলে শর্তটি মিথ্যা হয় এবং প্রিন্ট হয় না।
ফিল্ড ভিত্তিক Unique Extraction
awk '!seen[$1]++ { print $1 }' data.txtএটি data.txt ফাইলের প্রথম কলামের অনন্য মানগুলো প্রিন্ট করবে।
Duplicate Removal
ডুপ্লিকেট ডেটা রিমুভ করতে AWK তে অ্যারের সাহায্যে সহজেই শর্ত ব্যবহার করা যায়।
উদাহরণ:
awk '!seen[$0]++' data.txt > unique_data.txtব্যাখ্যা:
!seen[$0]++শর্তের মাধ্যমেdata.txtফাইলের ডুপ্লিকেট লাইন বাদ দেওয়া হয়েছে।- আউটপুট
unique_data.txtফাইলে সংরক্ষিত হয়েছে।
ফিল্ড ভিত্তিক Duplicate Removal
awk '!seen[$2]++ { print $0 }' data.txtএটি data.txt ফাইলের দ্বিতীয় কলাম ভিত্তিক ডুপ্লিকেট লাইন বাদ দিয়ে প্রিন্ট করবে।
ব্যবহারিক উদাহরণ
ইমেল তালিকা থেকে অনন্য ইমেল বের করা:
awk '!seen[$1]++ { print $1 }' emails.txtএটি emails.txt ফাইলের প্রথম কলাম থেকে অনন্য ইমেল বের করবে এবং প্রিন্ট করবে।
ডুপ্লিকেট নাম বাদ দিয়ে সম্পূর্ণ লাইন প্রিন্ট করা:
awk '!seen[$1]++' names.txtএটি names.txt ফাইলের প্রথম কলাম ভিত্তিক ডুপ্লিকেট নাম বাদ দিয়ে সম্পূর্ণ লাইন প্রিন্ট করবে।
উপসংহার
AWK তে ইউনিক ডেটা এক্সট্রাকশন এবং ডুপ্লিকেট রিমুভাল একটি সহজ কিন্তু কার্যকরী কাজ। অ্যারের সাহায্যে ডেটার উপস্থিতি ট্র্যাক করে শর্ত প্রয়োগ করা যায় এবং শুধুমাত্র অনন্য মান প্রিন্ট করা যায়। AWK এর এই বৈশিষ্ট্য ব্যবহার করে ডেটা বিশ্লেষণ এবং প্রক্রিয়াকরণ আরও কার্যকর করা সম্ভব।
Read more